การถอดรหัสกล่องดำ: สถาปัตยกรรมหลังการฝึกอบรมที่ใช้ในกระบวนการประมวลผล

วิวัฒนาการของความฉลาด: จากการพยากรณ์ไปสู่การให้เหตุผล

โมเดลเบื้องต้นที่ไม่ได้รับการปรับแต่งก่อนหน้าเป็นเพียงเครื่องมือทางสถิติขนาดใหญ่ที่ออกแบบมาเพื่อคาดการณ์คำถัดไป ในการเปลี่ยนแปลงฐานที่ดูเหมือนจะไม่สามารถคาดเดาได้ให้กลายเป็นผู้ช่วยที่ไว้ใจได้ วิศวกรจะใช้ กระบวนการหลังการฝึกอบรมซึ่งเป็นชั้นของการออกแบบอย่างตั้งใจ ที่ทำให้ระบบปัญญาประดิษฐ์ (AI) ไม่ใช่แค่กล่องดำที่ดูเหมือนเวทมนตร์อีกต่อไป แต่กลายเป็นระบบที่มีโครงสร้างและเป็นระบบมากขึ้น

1. กลไกของการปรับปรุง

การปรับแต่งแบบมีผู้สอน (SFT):นี่คือช่วงเริ่มต้น (โหมดเย็น) โมเดลจะถูกฝึกโดยใช้ชุดข้อมูลคำสั่ง-คำตอบที่จัดเตรียมมาอย่างดี เพื่อเรียนรู้รูปแบบพื้นฐานของการสนทนาของมนุษย์
การเรียนรู้แบบเสริมแรง (RL) พร้อมใช้งาน: ระบบสมัยใหม่ เช่น GRPO (การปรับปรุงนโยบายแบบเปรียบเทียบกลุ่ม) ช่วยให้โมเดลเรียนรู้ผ่านการลองผิดลองถูก โดยประเมินผลตอบแทนตามความถูกต้องทางตรรกะ โดยไม่จำเป็นต้องมีโมเดลตรวจสอบ (คริติกโมเดล) ที่ใช้ทรัพยากรหน่วยความจำมาก

2. ประสิทธิภาพผ่านการปรับแต่งที่ประหยัดทรัพยากร (PEFT)

การอัปเดตทุกพารามิเตอร์ — การฝึกซ้ำทั้งพารามิเตอร์หลายพันล้านตัว — เป็นไปไม่ได้ทางด้านคอมพิวเตอร์สำหรับ больш่าย ดังนั้นเราจึงใช้ การปรับแต่งที่ประหยัดพารามิเตอร์ (PEFT):

LoRA และ QLoRA: เทคนิคเหล่านี้จะแทรกเมทริกซ์ขนาดเล็กที่สามารถเรียนรู้ได้ (เมทริกซ์การแยกลำดับ) เข้าไปในโมเดล ในขณะที่คงพารามิเตอร์เดิมไว้ไม่เปลี่ยนแปลง ทำให้สามารถปรับแต่งได้คุณภาพสูงแม้บนฮาร์ดแวร์ระดับผู้ใช้ทั่วไป

3. กฎของกระบวนการให้เหตุผล

การสร้างเครื่องมือให้เหตุผลที่แท้จริง (เช่น DeepSeek-R1) จำเป็นต้องมีลำดับขั้นตอนเฉพาะ 4 ขั้นตอน:

ขั้นตอนที่ 1:เริ่มต้น (คำแนะนำพื้นฐาน)
ขั้นตอนที่ 2:การเรียนรู้แบบเสริมแรงบริสุทธิ์ (พัฒนาภายใน ห่วงโซ่ความคิด/CoT)
ขั้นตอนที่ 3:การสร้างข้อมูลจำลอง (การตัดทิ้งข้อมูลที่ไม่ดีจากกระบวนการให้เหตุผลที่มีคุณภาพสูง)
ขั้นตอนที่ 4:การปรับสมดุลขั้นสุดท้าย (รวมการให้เหตุผลจำลองกับข้อมูลที่สร้างสรรค์และข้อมูลที่ถูกต้อง)

ข้อคิดเชิงกลยุทธ์

เราเปลี่ยนจากการมองว่าปัญญาประดิษฐ์เป็นกล่องดำ ไปสู่การมองว่าเป็นชั้นของกลไกที่ถูกออกแบบมาอย่างตั้งใจ และมีการคิดวิเคราะห์ภายในอย่างตั้งใจ

ตรรกะการดำเนินการ (ลำดับขั้นตอนการทำงาน)

คำถามที่ 1

ทำไมการปรับแต่งที่ประหยัดพารามิเตอร์ (PEFT) จึงถือว่าจำเป็นต่อการวิศวกรรมปัญญาประดิษฐ์สมัยใหม่?

มันเพิ่มจำนวนพารามิเตอร์ทั้งหมดของโมเดล

มันช่วยให้สามารถปรับแต่งโมเดลบนฮาร์ดแวร์ระดับผู้ใช้ทั่วไป โดยการแช่แข็งพารามิเตอร์พื้นฐาน

มันแทนที่ความจำเป็นต้องใช้ข้อมูลฝึกอบรมทั้งหมด

คำถามที่ 2

ในกรอบงาน GRPO โมเดลตอบสนองจะถูกประเมินคะแนนอย่างไร?

โดยผู้เชี่ยวชาญด้านมนุษย์แบบเรียลไทม์

โดยการเปรียบเทียบผลลัพธ์กับค่าเฉลี่ยของกลุ่ม และให้รางวัลตามกฎเกณฑ์

โดยตรวจสอบว่าผลลัพธ์ที่ได้เป็นผลลัพธ์ที่ยาวที่สุดที่สร้างขึ้น

กรณีศึกษา: ผู้ช่วยทางกฎหมายเฉพาะเจาะจง

อ่านสถานการณ์ด้านล่างแล้วตอบคำถาม

คุณได้รับมอบหมายให้สร้าง "ผู้ช่วยทางกฎหมายเฉพาะเจาะจง" โดยใช้โมเดลพื้นฐานแบบโอเพนซอร์สที่มีพารามิเตอร์ 70 พันล้านตัว คุณมีหน่วยความจำของ GPU จำกัดบนคลัสเตอร์เซิร์ฟเวอร์ของคุณเอง

คำถามที่ 1

เทคนิคใดควรใช้ในการอัปเดตโมเดลโดยไม่ทำให้ฮาร์ดแวร์ล้มเหลว?

คำตอบ:
ควรใช้ LoRA (การปรับแต่งแบบลำดับต่ำ) หรือ QLoRA (การปรับแต่งแบบควอนไทซ์ LoRA) เทคนิค PEFT เหล่านี้จะแช่แข็งพารามิเตอร์พื้นฐาน 70 พันล้านตัว และฝึกเฉพาะเมทริกซ์ตัวช่วยขนาดเล็ก ทำให้สามารถปรับแต่งได้บนหน่วยความจำจำกัด

คำถามที่ 2

ในช่วงเริ่มต้น (โหมดเย็น) ข้อมูลประเภทใดสำคัญที่สุด?

คำตอบ:
ข้อมูลที่จัดเตรียมมาอย่างดี คุณภาพสูง ชุดคำสั่ง-คำตอบที่เฉพาะเจาะจงต่อการให้เหตุผลทางกฎหมาย. การปรับแต่งแบบมีผู้สอน (SFT) ช่วยสอนโมเดลให้รู้จักรูปแบบและโทนที่คาดหวัง ก่อนที่จะเริ่มกระบวนการเรียนรู้แบบเสริมแรงที่ซับซ้อน

คำถามที่ 3

หากโมเดลเริ่ม "หลอกลวง" ด้วยรหัสกฎหมาย ขั้นตอนใดของกระบวนการให้เหตุผลควรได้รับการเสริมแรง?

คำตอบ:
ขั้นตอนที่ 3 - การสร้างข้อมูลจำลอง (การตัดทิ้งข้อมูลที่เลือก). คุณต้องสร้างเส้นทางการให้เหตุผลหลายเส้นทาง และตัดทิ้งข้อมูลที่มีการหลอกลวงออกอย่างเคร่งครัด คงเพียงการให้เหตุผลที่เป็นความจริงเพื่อสร้างชุดข้อมูลที่ละเอียดอ่อนสำหรับการปรับสมดุลขั้นสุดท้าย